技术解释的技术解释
A Technical Explanation Of Technical Explanation
❦
正如 Jaynes 所强调的,贝叶斯概率论的定理,说到底就只是——数学定理,是从贝叶斯公理中不可避免地推导出来的。1 人们也许会天真地以为,数学定理不该有什么争议。但问题在于:这些定理究竟在什么时候适用?我们又该如何在现实世界的问题中使用这些定理?直观解释试图避免争议,而《技术解释》则是心甘情愿地一头撞进旋转着的直升机螺旋桨里。直白地说,《技术解释》中的推理,并不代表地球上整个贝叶斯研究者行星共同体的一致共识。至少,现在还不是。
如果说《直观解释》关注的是让人牢牢掌握贝叶斯主义的基础,那么《技术解释的技术解释》则是在贝叶斯基础之上,进一步建立起关于人类理性与科学哲学的若干主张。《技术解释的技术解释》之所以叫这个名字,是因为它从下面这个问题开始:
「技术性理解和口头性理解之间的区别是什么?」
小时候,我读过一些通俗物理读物,还自以为颇有见识;我自以为知道,声音是空气的波,光是电磁波,物质则是复概率振幅的波。等我长大后,我读了 The Feynman Lectures on Physics,并花时间真正弄懂了「波动方程」。2 然后我才意识到,在那之前,我对「声音是波」这句话的理解和相信,和物理学家理解并相信这句话的方式,根本不是一回事。
所以,这就是技术性理解与口头性理解之间的差别。
你相信这一点吗?如果你真信了,那你就该立刻把这条知识用起来,并说:「可你为什么没有给出一个技术性解释,而只是给了一个口头性解释呢?」
请在脑中想象一下概率密度或概率质量——把概率想成一团你必须分配到各种可能结果上的橡皮泥。
假设有一盏小灯,你每按一次按钮,它就会闪出红、蓝或绿中的一种颜色。每按一次按钮,灯都会且只会闪出一种颜色;这些可能性是互斥的。你正试图预测下一次闪灯的颜色。每一次尝试时,你手里都有一块橡皮泥,也就是概率质量,你必须把它分配到红、绿、蓝这几种可能性上。你可以把四分之一的橡皮泥放到绿色上,四分之一放到蓝色上,一半放到红色上——这就像是给绿色 25%、蓝色 25%、红色 50% 的概率。这个比喻的意思是:概率是一种守恒资源,必须小心、节省地分配。如果你认为下一次实验里蓝灯更可能闪出来,那你就可以给蓝色更高的概率,但你必须从其他假说那里把概率质量拿过来——也许从红色那里偷一点橡皮泥,加到蓝色上。你永远得不到更多橡皮泥。你的概率总和不可能超过 1.0(100%)。你不能同时预测看到红色的概率是 75%,看到蓝色的概率是 80%。
为什么你要对自己的概率质量如此小心、如此节省地发放呢?为什么不到处乱泼概率?让我们把这个比喻从橡皮泥换成钱。每按一次按钮,你最多可以押 1 美元的游戏币。旁边站着一位实验员,他会根据你在中奖灯色上押了多少游戏币,付给你相应数量的真钱。至于你把剩下的游戏币怎么分到那些没中的灯色上,我们并不关心。唯一重要的,是你在真正赢出的那盏灯上押了多少钱。
但如果我们希望玩家对自己的下注足够谨慎,就必须仔细设计实验员用来给赢家结算的评分规则。假设实验员付给每位玩家的真钱,恰好等于他押在中奖颜色上的游戏币。在这种评分规则下,如果你观察到红灯在十次里出现了六次,你的最优策略就不是在红色上押 60 美分,而是把整整 1 美元全押在红色上,至于蓝和绿的频率你根本不用在意。为什么?假设蓝和绿各自在十次里大约出现两次。再假设你在红色上押 60 美分,在蓝色上押 20 美分,在绿色上押 20 美分。这样一来,十次里有六次你会赢得 60 美分,十次里有四次你会赢得 20 美分,平均每次收益 44 美分。在这种评分规则下,把整整 1 美元全押在红色上反而更合理;那样你十次里有六次能赢到整整 1 美元。十次里有四次你会一无所获。你的平均收益将是 60 美分。
如果我们把收益函数写下来,它会是 Payoff = P(winner),其中 P(winner) 是你在那一轮押在中奖颜色上的游戏币数量。如果我们把在该 Payoff 规则下的期望收益函数写出来,它会是:
Expectation(Payoff) = Σ*colors * P(color) × F(color) 。
其中 P(color) 是你押在某个颜色上的游戏币数量,而 F(color) 是那个颜色获胜的频率。
假设灯的实际频率是 30% 蓝、20% 绿、50% 红。再假设我每一轮都把 40% 押在蓝色上,50% 押在绿色上,10% 押在红色上。那么我会在 30% 的时间里得到 40 美分,在 20% 的时间里得到 50 美分,在 50% 的时间里得到 10 美分,平均收益就是 $0.12 + $0.10 + $0.05,也就是 $0.27。也就是说:
| P(color) | = | 分配给该颜色的游戏币 |
||
| F(color) | = | 该颜色获胜的频率 |
Payoff = P(winner) = 分配给中奖颜色的游戏币数量。
实际的获胜频率是:
| F(blue) | = | 30% |
||
| F(green) | = | 20% |
| F(red) | = | 50% 。|
从长远来看,红色会在 50% 的时间里获胜,绿色在 20% 的时间里获胜,蓝色在 30% 的时间里获胜。所以,我们每一轮的平均收益,就是:如果红色赢时的收益乘以 50%,再加上绿色赢时的收益乘以 20%,再加上蓝色赢时的收益乘以 30%。
收益是中奖颜色与下注方案的函数。我们想要计算的是:在给定下注方案、并给定各颜色获胜频率的情况下,平均收益是多少。像这种“对每种情况取一个函数值,再按该情况发生的频率加权”的计算,在数学上的术语叫做期望。因此,要计算我们的期望收益,我们需要这样算:
| Expectation(Payoff) | = | Σ*colors * P(color) × F(color) |
||
| | = | P(blue) × F(blue) |
| | + | P(green) × F(green) |
| | + | P(red) × F(red) |
| | = | $0.40 × 30% + $0.50 × 20% + $0.10 × 50% |
| | = | $0.12 + $0.10 + $0.05 |
| | = | $0.27 。 |
用这种下注方案,我平均每轮大约能赢 27 美分。
我分配游戏币的方式完全是胡乱拍脑袋定的,于是问题就来了:如果我更聪明地分配自己的游戏币,能不能提高自己的期望收益?
在给定这个评分规则的前提下,要最大化我的期望收益,我就该把整整 1 美元都押在红色上。尽管我的期望收益是每轮 50 美分,但灯也有可能在现实中真的闪出绿、蓝、蓝、绿、绿,于是我得到的实际收益就是零。不过,灯连续五轮都不闪红的概率大约只有 3%。可以把这和法则性不确定性里的红蓝卡牌游戏作比较。
所谓合式评分规则(proper scoring rule),就是一种这样的下注评分规则:在这种规则下,当且仅当你押出的游戏币恰好等于该颜色闪出的真实概率时,你的期望收益才会最大。我们想要一种评分规则,使得如果灯实际闪烁的频率真是 30% 蓝、20% 绿、50% 红,那么你就只有在蓝色上押 30 美分、绿色上押 20 美分、红色上押 50 美分时,才能最大化你的平均收益。合式评分规则,就是那种强迫你的最优下注精确报告出你自己概率估计的规则。(这有时也叫严格合式评分规则。)正如我们已经看到的,并不是所有评分规则都具备这一性质;而如果你随手编造一个听起来似乎还不错的评分规则,它大概率不会具备这一性质。
具有这种合式性质的一条规则,是:支付金额等于 1 美元减去下注误差的平方,而不是直接等于下注本身——如果你在中奖灯上押了 30 美分,那么你的误差就是 70 美分,误差平方就是 49 美分(0.7^2 = 0.49),1 美元减去误差平方就等于 51 美分。3(可以设想你的游戏币是以「美分的平方根」为单位计价的,因此误差平方恰好成了一个货币量。)
我们不会使用平方误差规则。普通统计学家看到什么都喜欢拿平方误差去处理,但贝叶斯统计学家不会。
我们要加上一条新要求:不仅要求评分规则是合式的,还要求这个合式评分规则在我们把实验分开看还是合起来看时,都给出同一个答案。这就是贝叶斯主义者用来代替“给万物都取平方误差”的做法;我们要求的是各种不变性。
假设我连续按了两次按钮。现在有九种可能的结果:绿—绿、绿—蓝、绿—红、蓝—绿、蓝—蓝、蓝—红、红—绿、红—蓝、红—红。假设实际结果是第一次绿,第二次蓝。实验员会根据我们对 P(green1) 的概率赋值来给第一轮打分,再根据我们对 P(blue2|green1) 的概率赋值来给第二轮打分。4 我们做了两个预测,也就得到两个分数。第一个预测,是我们赋给第一轮中奖颜色(绿色)的概率。第二个预测,是在已知第一轮是绿灯的前提下,我们给第二轮蓝灯获胜的概率。为什么这里必须写 P(blue2|green1),而不能只写 P(blue2) 呢?因为你也许会有某种关于闪灯装置的假说,比如说「蓝色后面从来不会跟着绿色」,或者「蓝色后面一定会跟着绿色」,又或者「在绿色之后出现蓝色的概率是 70%」。如果是这样,那么在你看见第一轮是绿色之后,你就可能想要修正自己对第二轮的预测——修改你的下注。你当然可以一直等到实验员真正按下按钮之前,再利用一切信息修正你的预测;但等灯已经闪出来之后,再改下注就太晚了。
假设实际结果是第一轮 green1,第二轮 blue2。我们要求这样一种不变性:无论以下两种情况中的哪一种,我得到的总分都必须相同:
-
我被评分两次:第一次根据我对 P(green1) 的预测,第二次根据我对 P(blue2|green1) 的预测。
-
我只被评分一次:根据我对联合预测 P(green1 and blue2) 的预测。
假设我给 green1 赋了 60% 的概率,然后绿色灯真的亮了。接下来我必须为第二轮的颜色给出概率。我考虑 blue2 的可能性,并给它分配了 25% 的概率质量。结果,第二轮灯果然闪成了蓝色。所以在第一轮里,我押在中奖颜色上的下注是 60%;在第二轮里,我押在中奖颜色上的下注是 25%。但我也可以在实验一开始、刚刚给出 P(green1) 之后,就设想第一轮会亮绿灯,设想自己会根据这一信息更新理论,然后说出:如果第一轮是绿色,我会给第二轮蓝色分配多少置信度。也就是说,我生成了两个概率:P(green1) 和 P(blue2|green1)。把这两个概率相乘,我们就得到联合概率 P(green1 and blue2) = 15%。
一个双轮实验共有九种可能结果。如果我给 P(green1, green2)、P(green1, blue2)、……、P(red1, blue2)、P(red1, red2) 这九种可能性分别赋予概率,那么这些概率质量的总和就不能超过 1。我是在对一次「双轮实验」的九种互斥可能性作出预测。
我们要求一种评分规则(它看起来也许完全不像任何正常赌盘庄家会用的规则),使得无论我们把这个双轮结果看成「两个预测」还是「一个预测」,我的总分都不发生变化。我可以把这串双轮结果当作一个单独实验——「按两次按钮」——并按我对 P(blue2, green1) = 15% 的预测来打分。或者我也可以先按自己对第一轮 P(green1) = 60% 的预测打一次分,再按自己对 P(blue2|green1) = 25% 的预测再打一次分。我们要求无论采用哪种切法,总分都完全一样,这样实验和预测被怎么切片就都无所谓了——总分始终丝毫不差。这就是我们要的不变性。
我们刚刚要求了:
Score[P(green1, blue2)] = Score[P(green1)] + Score[P(blue2|green1)] 。
而我们已经知道:
P(green1, blue2) = P(green1) × P(blue2|green1) 。
唯一可能的评分规则就是:
Score(P) = log(P) 。
新的评分规则是:你的得分等于你赋给中奖结果的概率的对数。
对数的底数是任意的——无论我们用以 10 为底的对数,还是以 2 为底的对数,这条评分规则都具有我们想要的不变性。但我们总得选定一个实际的底数。数学家会选 e;工程师会选 10;计算机科学家会选 2。如果我们用 10 为底,就可以像《直观解释》中那样把它换算成分贝;不过有时候用比特更好操作。
对数评分规则是合式的——当我们说出自己真正的预期时,它的期望值取得最大;它奖励诚实。如果我们认为蓝灯闪出的概率是 60%,然后计算在不同下注方案下的期望收益,就会发现:只有告诉实验员「60%」,才能让期望收益最大化。(会微积分的读者可以自行验证。)这种评分规则还会给出一个不变量总分:不管我们把连续按两次按钮算作「一个实验」还是「两个实验」,总分都一样。不过,收益现在全都变成了负值,因为我们取的是概率的对数,而概率总在零和一之间。以 10 为底时,0.1 的对数是 −1;0.01 的对数是 −2。这没关系。我们本来就接受了这种评分规则可能完全不像真实庄家会采用的那种规则。若你愿意,可以想象实验员手里有一大堆钱,最后会发给你某个固定数额再减去你的大负分。(呃,准确地说,是加上你的负分。)比如说,实验员手里有 100 美元,而你在 100 轮之后累计得分为 −48,那么你最终就拿到 52 美元。
那 −48 这个分数是用什么底算出来的?我们可以通过规定单位来消除这个歧义。10 分贝意味着一个 10 倍因子;负 10 分贝意味着一个 1/10 因子。若你把 0.01 的概率赋给真实结果,你的得分就是 −20 分贝。赋给 0.03 的概率,则得分约为 −15 分贝。有时我们也会用比特:1 比特意味着一个 2 倍因子,−1 比特意味着一个 1/2 因子。若你把 0.25 的概率赋给真实结果,你的得分就是 −2 比特;0.03 的概率则约为 −5 比特。
如果你对每个颜色都给出一个概率评估 P,其中有 P(red)、P(blue)、P(green),那么你的期望得分就是:
Score(P) = log(P)
Expectation(Score) = Σ*colors * P(color) × log(P(color)) 。
假设你的概率分配是:红 25%、蓝 50%、绿 25%。为了算起来简单一点,让我们暂时用 2 为底。你的期望得分是:
| Score(red) | = | −2 比特,闪出频率为 25%, |
||
| Score(blue) | = | −1 比特,闪出频率为 50%, |
| Score(green) | = | −2 比特,闪出频率为 25%, |
| Expectation(Score) | = | −1.5 比特。 |
把我们的贝叶斯评分规则,和人们在日常口语中谈论信念程度的方式对照起来看:有人也许会随口说一句,「我有 98% 的把握认为芥花油含有的 omega-3 脂肪比橄榄油多。」他们真正的意思其实是:他们感觉上有 98% 的确定——仿佛有一根小小的进度条,在测量「确定感」这种情绪的强度,而这根进度条现在被填满了 98%。而且如果我们真有办法去测量,那根情绪进度条大概也不会真的恰好是 98% 满。所谓「98%」在口语里只是在说:「我几乎确定了,但还没有完全确定。」它并不意味着:如果你在这个结果上恰好押 98 美分游戏币,就能得到最高的期望收益。你只有在足够自信、相信自己若连续回答一百个类似问题(难度相当、彼此独立),平均只会错两次时,才应该给出 98% 的校准置信度。我们会长期跟踪你答对的频率;如果结果发现,当你说「90% 确定」时,你其实十次只对七次,那么我们就会说你的校准性很差。
如果你说了一千次「98% 概率」,而你只惊讶了五次,我们照样会因为你的校准性差而扣你分。因为你把太多概率质量分配到了「自己会错」这种可能性上。为了让得分最大化,你本来应该说的是「99.5% 概率」。评分规则奖励的是准确的校准,而不是鼓励谦逊,也不是鼓励傲慢。
到这里,也许有些读者会想到一个显而易见的办法来实现完美校准——对于每一个是非题,都直接抛硬币,然后给自己的答案赋予 50% 的置信度。你说 50%,而你有一半时间答对。这不就是完美校准吗?是的。但校准只是我们贝叶斯得分中的一个组成部分;另一个组成部分是区分度。
假设我问你十个是非题。你对这个主题一无所知,所以每个问题你都把概率质量平分给「是」和「否」。恭喜,你的校准性完美无缺——凡是你说「50% 概率」的答案,最终恰好有一半是真的。无论正确答案的序列长什么样,也无论其中有多少个「是」,这一点都成立。在这十次实验中,你一共说了二十次「50%」——你对 Yes1、No1、Yes2、No2、Yes3、No3、…… 都说了「50%」。其中有十次答案是真的,例如:Yes1、No2、No3、……;也有十次答案是假的,例如:No1、Yes2、Yes3、……
现在轮到我来回答。我花了更多心力,努力区分出究竟是 Yes 还是 No 才是正确答案。我给自己偏好的每个答案都赋予 90% 的置信度,而我的偏好答案错了两次。我的校准性比你差。我一共在十次场合里说了「90%」,而其中有两次我错了。下次再有人听我说话时,他们也许会在心里把我的「90%」翻译成 80%,因为他们知道:当我 90% 确定时,我实际只有 80% 的时候是对的。但你赋给整个最终结果的概率,是 1/2 的 10 次方,也就是 0.001 或 1/1024。至于我赋给最终结果的概率,则是 90% 的 8 次方乘以 10% 的 2 次方,也就是 0.9^8 × 0.1^2,大约等于 0.004,即 0.4%。你的校准性完美,而我的并不完美;但我在区分对错上的更高区分度,却足以弥补这一点。我的最终得分更高——我把更大的联合概率赋给了整个实验的最终结果。要是我不那么过度自信、校准得更好,那么我赋给整个最终结果的概率就会是 0.8^8 × 0.2^2,大约等于 0.006,也就是 0.6%。
还有没有可能做得更好?当然有。你完全可以把每一道题都猜对,并给自己的每个答案都赋予 99% 的概率。那样你赋给整个实验结果的概率就是 0.99^10 ≈ 90%。
你的得分将是 log(90%),也就是 −0.45 分贝,或者 −0.15 比特。我们之所以必须取对数,是因为如果我要最大化自己的期望得分,即 Σ P × log(P),那我就没有任何动机去作弊。如果不用对数规则,我就会通过把全部概率质量压在那个最可能的结果上来最大化期望得分。同样,如果不用对数规则,那么我的总得分还会因为我们把几轮算作几个实验还是一个实验,而变得不同。
一个简单变换就能通过降低区分度来修复糟糕的校准性。假如你习惯于在每一百个问题里,对 90 个正确、10 个错误的答案说「百万分之一」,那我们完全可以把你的校准性修正过来:只要把「百万分之一」替换成「九比一」即可。相反,并没有什么简单办法可以提高(且仍然成功的)区分度。假设你习惯于在每一百个问题里,对 90 个正确答案都说「九比一」,那么我当然也可以通过把「九比一」替换成「百万比一」,轻松提高你声称出来的区分度。但没有任何简单变换,能提高你的实际区分度,使得你的回答从区分出 90 个正确、10 个错误,变成区分出 95 个正确、5 个错误。正如 Yates 等人所说:5「良好的校准性通常可以通过简单的数学变换来实现(例如给每个概率判断都加上一个常数);而良好的区分度则要求你接触到扎实、具有预测力的证据,并且有能力利用这些证据,而这两样东西在任何现实生活、现实实践情境中都很难获得。」 如果你缺乏区分真伪的能力,你完全可以通过坦承自己的无知来获得完美校准;但坦承无知本身并不会区分出真与假。
于是,我们又拆掉了一个关于理性的错误刻板印象:认为理性就是谦卑、克制,并在未知面前承认自己的无能。那不过是作弊者的逃生通道——给所有是非题统统赋上 50% 的概率而已。我们的评分规则鼓励你:如果能做得更好,就去做得更好。如果你无知,就承认自己无知;如果你有把握,就承认自己有把握。我们会惩罚你在自信时犯错,但也会奖励你在自信时答对。这就是合式评分规则的美德。
假设我掷一枚硬币二十次。如果我相信这枚硬币是均匀的,我所能作出的最佳预测,就是每次都预测正反面各占一半概率。如果我相信这枚硬币是均匀的,我就会给二十次掷硬币的每一种可能序列赋予同样的概率。二十次掷硬币大约有一百万(1,048,576)种可能序列,而我手里只有 1.0 的概率质量可以分配。所以,我给每一种单独的可能序列分配的概率都是 (1/2)20——赔率大约是一百万比一;−20 比特,或 −60 分贝。
我作出了一个实验性预测,却得到了 −60 分贝的分数!这难道不会证伪该假说吗?直觉上,不会。我们不会把硬币掷二十次,看到一个看起来很随机的结果,然后倒吸一口气说,哎呀,这结果的赔率可是一百万比一。但反对看到那个确切序列的赔率确实是一百万比一;如果我天真地把下一组二十次掷硬币的结果也精确预测成同一序列,我就会发现这一点。只要没有其他理论做得更好,理论给某些结果赋予极小概率并没有问题。但如果有人用另一套假说,提前把那个确切序列写进一个密封信封里,而她给它赋予了 99% 的概率,那我就会怀疑这枚硬币是否公平。前提是,她只封了一个信封,而不是一百万个。
这告诉了我们,从常识上看我们应当回答什么,但它并没有说明,那个常识性答案如何从数学中产生。要说明常识为什么正确,我们需要把目前为止说过的一切,整合进贝叶斯式信念修正的框架之中。等我们做完时,我们就会在技术层面理解:口头理解与技术理解之间究竟有什么差别。
设想一个实验,它会产生一个介于零和 99 之间的整数结果。比如说,实验可能是一个粒子计数器,告诉我们一分钟内有多少粒子通过。又或者,实验可能是周三去超市,查看一袋 10 oz 碎核桃的价格,并记下价格最后两位数字。
我们正在检验几种不同的假说,它们都试图预测实验结果。每个假说都会在所有可能结果之上产生一个概率分布;在这里,就是零到 99 之间的整数。各种可能性是互斥的,所以分布中的概率质量必须加总为一(或更少);我们不能既预测看到 42 的概率是 90%,又预测看到 43 的概率也是 90%。
假设有一个精确假说,预测看到结果 51 的概率为 90%。(也就是说,这个假说是:超市通常会把核桃标成「X 美元 51 美分」。)这个精确理论把它 90% 的概率质量押在了结果 51 上。这就只剩下 10% 的概率质量,可以分摊到其他 99 个可能结果上——也就是零到 99 之间除 51 之外的所有数字。这个理论没有再作进一步规定,所以我们就把剩余 10% 的概率质量平均分配给这 99 种可能性,给每一个非 51 的结果赋予 1/990 的概率。为了书写方便,我们把 1/990 近似写成 0.1%。
这个概率分布类似于在假说给定条件下结果的似然(likelihood),也就是条件概率。我们可以把它称为该假说的似然分布(likelihood distribution),即:如果该假说为真,我们看到每个特定结果的概率。对于一个假说 H,其似然分布是由所有条件概率组成的一个函数:P(0|H) = 0.001,P(1|H) = 0.001,……,P(51|H) = 0.9,……,P(99|H) = 0.001。
精确理论预测看到 51 的概率是 90%。再设想还有一个模糊理论,它预测「看到一个五十几的数的概率是 90%」。
如果我们看到的结果是 51,我们不会说这个结果同等地确认了两个理论。两个理论都作出了预测,也都赋予了 90% 的概率,而结果 51 也都确认了这两个预测。但精确理论有一个优势,因为它把概率质量集中在了一个更尖锐的点上。如果模糊理论没有再作进一步规定,我们就把「看到一个五十几的数的概率是 90%」理解为:看到 50 到 59 之间每个数字的概率都是 9%。
假设我们一开始对精确理论和模糊理论各持均等赔率——赔率是 1:1,或者两个假说为真的概率都是 50%。在看到结果 51 之后,精确理论为真的后验赔率是多少?两个理论的预测,相当于它们的似然赋值——在理论为真的前提下看到该结果的条件概率。两个理论之间的似然比是多少?第一个理论把 90% 的概率质量分配给了确切的结果。模糊理论把 9% 的概率质量分配给了这个确切结果。似然比就是 10:1。所以,如果我们一开始的赔率是 1:1,那么后验赔率就是精确理论以 10:1 领先。两个条件概率之间的差异性压力,把我们先前 50% 的置信度推到了后验上大约 91% 的置信度,认为精确理论是正确的。假设被检验的只有这两个假说,正在考虑的也只有这条证据,等等。
为什么在两个理论都符合证据的情况下,模糊理论会输?模糊理论太怯懦了;它作出的是一个宽泛预测,分散了赌注,允许了许多本会证伪精确理论的可能性。这并不是科学理论的美德。科学哲学家告诉我们,理论应当大胆,应该在预测失败时甘愿让自己被证伪。6 现在我们知道原因了。精确理论把自己的概率质量集中在一个更尖锐的点上,因此如果真正结果落在别处,它就会让自己暴露于证伪之下;但如果预测结果正确,精确性相较于模糊性,就有着巨大的似然优势。
概率论定律不给任何作弊空间;你没法构造一个模糊假说,让 50 到 59 之间的任一结果都像精确理论那样算作同等有利的确认,因为那会要求概率质量加总到 900%。没有办法作弊,前提是你得提前记录下自己的预测,这样你事后就不能声称,你的理论对恰好到来的那个结果赋予了 90% 的概率。人类非常喜欢在事后才作出自己的预测,所以科学的社会过程要求先有预先预测,然后我们才说某个结果确认了某个理论。但人类如何才能与贝叶斯之道协调一致,并因此掌握这种力量,是一个与数学本身是否成立分开的独立问题。做数学时,我们只是理所当然地假定:似然密度函数是一个假说的固定属性;概率质量总和为 1;你根本不会想到还能用别的做法。
你也许会想花一点时间想象一下,如果我们把概率定义为校准,那么贝叶斯定理关联的就是校准。假设我猜理论 1 为真的概率是 50%,我也猜理论 2 为真的概率是 50%。假设我的校准是良好的;当我说出「百分之五十」这几个字时,事情大约有一半时候会真的发生。然后我看到一个结果 R;在理论 1 给定的情况下,这个结果大约有十分之九的概率发生;在理论 2 给定的情况下,这个结果大约有百分之九的概率发生;而我知道这一点,并应用贝叶斯推理。如果我起初是完美校准的(尽管说 50/50 的区分力很差),那么在我把自己对理论 1 的置信度说成现在是 91% 之后,我依然会是完美校准的(而且区分力更强了)。如果我多次重复这种情形,那么当我说「91%」时,我大约会有十一分之十的次数是对的。如果我按照贝叶斯规则推理,并且从校准良好的先验出发,那么我的结论也会是校准良好的。只有当我们把概率定义为校准时,这一点才成立!如果「90% 确信」被解释成比如说某种确信情绪的强度,那就没有理由期待后验情绪与先验情绪之间会满足精确的贝叶斯关系。
让先验赔率是模糊理论以十比一领先。为什么?假设我们描述假说的方式,要么允许我们指定一个精确数字,要么只允许指定一个十位数字;我们可以说「51」「63」「72」,或者说「在五十几 / 六十几 / 七十几」。再假设我们认为,真实答案大致同样可能属于第一类答案,也同样可能属于第二类答案。然而,考虑到这个问题,第一类共有一百个可能假说,而第二类只有十个假说。所以如果我们认为两类假说中的任一类,作为整体,都有大致相等的先验可能性为真,那我们就必须把先验概率质量摊到比模糊理论多十倍的精确理论上。因此,那个精确预测恰好是 51 的理论,其先验概率质量就会只有那个预测「一个五十几的数」的模糊理论的十分之一。在看到 51 之后,赔率就会从模糊理论以 10:1 领先,变成精确理论与模糊理论 1:1 打平。
如果你仔细看,这和常识所预期的完全一致。你一开始不确定,一个现象到底是那种每次都会产生完全相同结果的现象,还是那种每次都会产生一个 X 十几范围内结果的现象。(如果你需要一个理由来假设 50–59 是可接受范围,而 49–58 不是,也许这个现象是超市里的一个价格区间。)你做了一次测量,答案是 51。那么,这既可能是因为该现象恰好就是 51,也可能是因为它落在五十几。所以,剩下的那个精确理论,与剩下的那个模糊理论,就应当有相同赔率;而这又要求模糊理论在一开始必须比那个精确理论高十倍概率,因为精确理论与证据的吻合更尖锐。
如果我们只看到一个数字,比如 51,这并不会改变这个现象本身是「精确」还是「模糊」的先验概率。但实际上,它会把这两类假说的全部概率质量,都集中到每一类中单独存活下来的那个假说上。
当然,说一个现象是精确的还是模糊的,是严重错误的;这是 Jaynes 所说的心智投射谬误(Mind Projection Fallacy)的一个例子。7 精确或模糊是地图的属性,不是疆域的属性。更准确地说,我们应当问:超市里的价格是保持不变,还是来回浮动。那种「模糊」类型的假说,适合描述一个会浮动的价格。精确地图则适合恒定疆域。
再举一个例子:你把一枚硬币掷了十次,看到序列 hhtth:tttth。也许你一开始认为,这枚硬币有 1% 的概率是被固定好的。难道「这枚硬币被固定成产生 hhtth:tttth」这一假说,不是比公平硬币假说,对观测结果赋予了高出一千倍的似然质量吗?没错。难道「硬币是固定好的」的后验赔率不会因此变成 10:1 吗?不会。「这枚硬币是固定好的」那 1% 的先验概率,必须覆盖每一种可能的固定硬币——一枚被固定成产生 hhtth:tttth 的硬币、一枚被固定成产生 tthht:hhhht 的硬币,等等。硬币被固定成产生 hhtth:tttth 的先验概率不是 1%,而是百分之一的千分之一。事后,硬币被固定成产生 hhtth:tttth 的后验概率是 1%。换句话说:你原本认为,这枚硬币很可能是公平的,但也有 1% 的概率会被固定成某个随机序列;你掷了硬币;硬币给出了一个看起来很随机的序列;而这并没有告诉你,这枚硬币究竟是公平还是固定。它告诉你的只是:如果硬币是固定的,那么它固定的是哪一个序列。
这个寓言有助于说明:贝叶斯主义者必须考虑先验概率。有一个统计学分支,有时被称作「正统统计」或「经典统计」,它坚持只关注似然。但如果你只关注似然,那么最终总会有某个固定硬币假说击败公平硬币假说,这种现象被称为对数据的「过拟合」。掷了三十次之后,那条特定序列对应的固定硬币假说,其似然会比公平硬币假说高出十亿倍。只有当固定硬币假说(或者更准确地说,那一个特定的固定硬币假说)在先验上低十亿倍概率时,固定硬币假说才有可能输给公平硬币假说。
如果你摇一摇这枚硬币,把它「重置」了,然后再次开始掷硬币,而这枚硬币又一次产生了 hhtth:tttth,那就是另一回事了。即便初始概率只有 1%,这也会把固定硬币假说的后验赔率提升到 10:1。
同样地,如果我们对粒子计数器(或周三超市价格)连续做两次测量,而两次测量都返回 51,那么精确理论就会以 10:1 的赔率获胜。
所以精确理论会赢,但模糊理论的得分仍会好过根本没有理论。再考虑第三种理论,也就是零知识假说,或最大熵分布(maximum-entropy distribution),它认为零到 99 之间的任何结果都等可能。假设我们看到了结果 51。模糊理论比最大熵分布作出了更好的预测——它给我们实际观察到的结果赋予了更高的似然。模糊理论,按字面意义说,比什么都没有更好。假设我们一开始对完全无知假说的赔率是 1:20。(为什么是 1:20?因为完全无知假说只有一个,而且它还是一种特别简单、特别直观的假说——奥卡姆剃刀。)在看到结果 51 之后,模糊理论给出 9%,完全无知给出 1%,于是后验赔率变成 10:20,也就是 1:2。如果接着我们又看到另一个 51,后验赔率就变成 10:2,也就是模糊理论有 83% 的概率为真——当然,前提是此时没有更精确的理论纳入考虑。
然而,模糊理论的怯懦——它不愿意作出一个精确预测,并在任何其他结果出现时接受证伪——使它容易受到大胆而精确理论的攻击。(当然,前提是那个大胆理论确实猜中了结果!)假设精确、模糊、无知理论的先验赔率是 1:10:200——也就是精确、模糊和无知理论的先验概率分别是 0.5%、4.7% 和 94.8%。这个数字体现了我们对假说类别的先验概率分布,其中概率质量在整个类别上的分配如下:50% 认为该现象会在所有数字间变动,25% 认为该现象会在某个十位区间内变动,25% 认为该现象每次都重复同一个数字。完全无知假说只有一个,十位区间假说有 10 个,重复单一数字的假说有 100 个。因此,精确假说 51、模糊假说「五十几」、以及完全无知假说的先验赔率就是 1:10:200。
在看到一次 51 之后,对应赋予的概率分别是 90%、9% 和 1%,后验赔率变成 90:90:200 = 9:9:20。再额外看到一次 51,后验赔率就变成 810:81:20,也就是 89%、9% 和 2%。此时,精确理论优于模糊理论,而模糊理论又优于无知理论。
现在再考虑一个愚蠢理论,它预测看到零到九之间某个结果的概率为 90%。这个愚蠢理论对真实结果 51 赋予的概率是 0.1%。如果精确、模糊、无知和愚蠢理论一开始的赔率是 1:10:200:10,那么看到一次 51 之后,后验赔率就会变成 90:90:200:1。愚蠢理论已经被证伪了(后验概率为 0.2%)。
完全可能有一种模型糟糕到比什么都没有还差:如果这个模型把自己的概率质量集中到了远离真实结果的地方,自信地对错误答案作出预测。这样的假说糟糕到会输给完全无知的假说。无知胜过反知识。
旁注: 在人工智能领域,偶尔会流行一种赞美随机性荣光的风潮。偶尔有 AI 研究者发现,如果他们往某个算法里加入噪声,算法反而运行得更好。于是这个结果就会被极其热情地报告出来,接着就是大量肉麻的颂词,赞美混沌、不可预测性、自发性、对你自己的 AI 在做什么一无所知,等等所具有的创造力量。(《The Imagination Engine》就是一个例子;按照他们的销售资料,他们卖的是受伤垂死的神经网络。8)但是,一个算法得惨到什么地步,才会在往中间处理阶段注入熵之后提高性能?这个算法肯定已经紊乱到,把一部分工作用来把概率质量集中到远离优良解的地方。如果注入随机性能带来可靠提升,那就说明这个算法的某个方面必然可靠地做得比随机还差。也只有在 AI 领域,人们才会设计出从字面上比一袋砖头还笨的算法,靠把结果稍微往无知方向拉回来提升一点表现,然后就开始鼓吹噪声的疗愈力量。
假设在我们的实验中,我们看到了 52、51 和 58 这几个结果。精确理论给这个联合事件的概率是千分之一乘 90% 再乘千分之一,而较模糊的理论给这个联合事件的概率是 9% 的三次方,算下来……哦……嗯……让我想想……大约是:在精确理论下百万比一,在模糊理论下千分之一左右。或者差不多吧;我们这里只是在粗略计算十的幂次。相比之下,那个把所有结果都赋予相等概率的零知识分布,也给出百万比一。相比之下,比什么都没有还糟的那个模型,也就是声称看到小于 10 的数的概率有 90% 的愚蠢假说,则给出十亿比一。用这些近似数字,模糊理论得到 −30 分贝的分数(也就是整个实验结果的概率为 1/1000),相比之下,精确理论、无知理论和愚蠢理论的分数分别是 −60、−60 和 −90。得分最高者并不总是获胜,因为我们还需要把先验赔率 1:10:200:10 考虑进去,也就是置信度分别为 −23、−13、0 和 −13 分贝。模糊理论的总分仍然最高,为 −43 分贝。(如果我们忽略先验概率,那么每一个新实验都会压过此前所有实验累积起来的结果;我们就无法积累知识。而且,固定硬币假说总会获胜。)
和往常一样,我们不该因为即便最佳理论仍然得分很低而感到惊慌——回想一下公平硬币的寓言。理论都是近似。在原则上,我们也许能够预测掷硬币的确切序列。但那需要比我们愿意付出的更好的测量和更多的计算能力。也许只要模型足够好,我们就能把掷硬币预测到 60/40……?我们采纳手头最好的近似,并努力做到良好校准,即使区分力还不完美。
到目前为止,我们的分析一直是在贝叶斯概率论的规则下进行的;在这个体系里,你不可能拥有超过 100% 的概率质量,因此也就不可能作弊,把任何结果都算成对自己理论的「确认」。在贝叶斯法则之下,游戏筹码不能伪造;你手里就这么多泥可捏。
不幸的是,人类并不是贝叶斯主义者。人类会以一种怪异的方式试图捍卫假说,刻意努力去证明它们,或者阻止它们被证伪。这种行为在概率论或决策论的定律中根本没有对应物。在形式概率论里,假说在那儿,证据也在那儿,而假说要么被确认,要么没有被确认。在形式决策论里,一个智能体也许会努力调查某个自己当前尚不确定的问题,但并不知道证据最终会朝哪个方向走。在这两种情况下,人都不会刻意尝试去证明一个想法,也不会刻意避免它被证伪。人可以去检验那些自己真心不确定的想法,但不能对调查结果有一个「偏好」结局。人不能试图证明假说,也不能阻止假说被证明。我几乎无法恰当地传达,这个概念对一个真正的贝叶斯主义者来说会显得多么荒唐;贝叶斯语言里甚至都没有词可以描述这种错误……
对于每一种对证据的预期,都存在一个大小相等、方向相反的反证据预期。如果 A 是支持 B 的证据,那么非 A 就必须是支持非 B 的证据。证据的强弱未必相等;某个方向上罕见但强烈的证据,可能会被另一个方向上常见但较弱的证据所平衡。但 A 和非 A 不可能同时都成为支持 B 的证据。也就是说,在概率论定律之下这是不可能的。
人类似乎经常想鱼与熊掌兼得。无论我们看到的是哪种结果,那种结果都会证明我们的理论。正如证据期望守恒里的神父 Spee 所说:「调查委员会如果宣告一个女人无罪,就会觉得颜面尽失;一旦她被逮捕并锁上镣铐,她就必须是有罪的,不管用的是光明正大还是卑劣手段。」9
人类心理看起来是这样运作的:我们先看到某件事情发生,然后再试图论证,这件事与我们事先心中的那个假说是吻合的。我们手里没有那种要分配给预先预测的守恒概率质量,取而代之的是一种相容感——解释与事件看起来有多「契合」。「契合」不是守恒的。它没有任何等价于「概率质量必须加总为一」的规则。一个精神分析师可以通过构造适当的「合理化」与「防御」结构,来解释病人的任何可能行为;它看起来契合,因此它一定为真。
现在来考虑虚假解释里讲的那个寓言——学生们看到一个散热器,以及散热器旁边的一块金属板。学生们绝不会事先预测那块板靠近散热器的一侧会更冷。然而,在看到这个事实之后,他们还是设法让自己的解释「契合」了。他们失去了自己宝贵的惊讶机会——本来那是他们意识到自己的模型并没有预测到自己所观察现象的机会。他们牺牲了自己对虚构比对真实更困惑的能力。而且他们没有意识到,「热传导,blah blah,所以近侧更冷」是一种模糊而口头的预测,散布在针对具体测量温度的极其宽广可能值范围上。应用扩散与平衡方程,会对可能的联合取值给出一个尖锐预测。它也许不能规定你第一次测到的数值,但当你知道了少数几个数值之后,你就能为其余数值生成一个尖锐预测。针对整个实验结果的得分,会远优于任何不那么精确的替代方案,尤其是那种模糊而口头的预测。
你现在已经拥有了一个关于「口头解释」与「技术解释」之差别的技术性解释。它之所以是技术性解释,是因为它让你能够精确计算出一个解释究竟有多技术化。模糊假说可能模糊到只有超人智能才能精确算出它到底有多模糊。也许一个足够巨大的智能,可以外推每一种可能实验结果,再外推那个模糊猜测者对于模糊假说「有多契合」的每一种可能裁决,然后把这个「契合」分布重新归一化成一个加总为一的似然分布。但原则上,人仍然可以精确计算一个模糊假说有多模糊。只不过这项计算在计算上不可处理,就像用量子力学去计算飞机轨迹在计算上不可处理一样。
我认为,每个人至少都需要学习一门技术性学科:物理、计算机科学、进化生物学、贝叶斯概率论,或者某种别的东西。一个履历里没有任何技术性学科的人,对「解释」某件事究竟意味着什么,是没有指称对象的。他可能会以为万物皆火也是一种解释,正如希腊哲学家 Heraclitus 所想的那样。因此,我主张在高中教授贝叶斯概率论。贝叶斯概率论是我所知道唯一一块既能在高中层级讲授、又能让人对一个主题——信念的动力学——获得技术性理解的数学,而这个主题属于日常现实世界领域,并且带有情感上重要的后果。学习贝叶斯概率会给学生一个参照物,让他们知道「解释」某件事到底是什么意思。
太多学院派人士以为,「技术性」就是用干巴巴的多音节术语说话。下面给你一个关于「技术解释」的「技术性」解释:
概率论方程偏好那些能强力预测被观察到的确切数据的假说。强模型会大胆地把自己的概率密度集中到精确结果上,这使得如果数据落到别处,它们就会被证伪;同时也让它们相对于那些不那么大胆、不那么精确的模型,拥有巨大的似然优势。口头解释依赖的是事后不守恒的相容性心理评估,而不是事前守恒的概率密度。并且,口头解释不会画出细节尖锐的图景,这意味着它在数据附近对应的是一个平滑的似然分布。
这样令人满意吗?不。听听这些气派而沉重的句子,回荡着专业权威那种沉闷的钝响。看看那些倒霉学生,把这些句子写在纸上。听众即便听见了这些仪式性词句之后,仍然做不出任何计算。你知道这些数学,所以这些词对你有意义。听完这些堂皇词句之后,你能够做这些计算,就像在听之前你也能做一样。可对于那个没有看过任何计算过程的人呢?除了获得复述这些迷人词汇的能力,他又从这场「技术性」讲座中得到了什么新技能?
「Bayesian」还真是个迷人的词,不是吗?让我们把它彻底念过瘾吧:Bayes Bayes Bayes Bayes Bayes Bayes Bayes Bayes Bayes……
这个神圣音节本身毫无意义,除非它是在告诉某个人去应用数学。因此,听的人必须早就懂那套数学。
反过来说,如果你懂数学,那你想多傻气都行,同时仍然是技术性的。
于是,我们又清除了一个关于理性的刻板印象:理性由干枯的形式主义和毫无幽默感的庄严肃穆构成。这和区分真与假这个问题有什么关系?这和获得那张能够反映疆域的地图有什么关系?一个配得上实验服的科学家,应当能够穿着小丑装做出原创发现,或者吸了氦气后用尖细的高嗓音做讲座。概率论的数学里从没写着人不许找乐子。那把劈开通向正确答案之路的刀锋,本身既无庄重也无滑稽,尽管握刀的人也许很滑稽。
一个有用的模型,不只是你知道的一件事,就像你知道飞机是由原子构成的那样。一个有用的模型,是你能够在合理时间内把它算出来,用以预测你知道如何观察的现实世界事件的知识。也许有人会发现,使用一个只稍微违反一点动量守恒的模型,你可以比坚持动量严格守恒时,更廉价地计算出 747 的空气动力学。所以,如果你有两台计算机在竞争,看谁能给出最佳预测,那么最好的预测也许反而来自那个违反动量守恒的模型。这并不意味着现实中的 747 违反了动量守恒。两个模型都没有用到单个原子,但这也不意味着 747 不是由原子构成的。物理学家之所以用不同模型去预测飞机和粒子碰撞,是因为逐个粒子地计算一架飞机的代价太高了。
你要证明 747 是由原子构成的,需要依靠那些空气动力学模型处理不了的实验数据;例如,你可以把扫描隧道显微镜对准机翼的一小段,看看那些原子。同样地,你也可以用更精细的测量仪器来区分:一架 747 是不是真像那个廉价近似所预测的那样真的违背了动量守恒,还是像底层物理学所预测的那样服从动量守恒。获胜的理论,是那个对所有实验预测合起来之后给出最佳预测的理论。我们的贝叶斯评分规则,给了我们一种把全部实验结果结合起来的方法,甚至包括那些使用不同方法的实验。
此外,原子理论允许、拥抱,并且在某种意义上要求空气动力学模型的存在。通过抽象地思考原子理论的那些假设,我们会意识到,空气动力学模型理应是原子理论的一个良好近似(而且便宜得多),所以原子理论是在支持空气动力学模型,而不是与它竞争。一个成功的理论可以容纳许多适用于不同领域的模型,只要这些模型都被承认是近似,并且在每一种情况下,该模型都与底层理论相容(或理想情况下,由底层理论所要求)。
我们的基础物理学——量子力学、标准粒子家族以及相对论——就是一种容纳了宏观物理现象庞大模型家族的理论。有液体物理学、固体物理学、气体物理学;但这并不意味着,世界上存在某些基础性的东西,天生就带有液态性这一内在属性。
表面上有颜色,表面上有甜味,表面上有苦味,实际上只有原子与虚空。
——Democritus,公元前
420年,转引自 Robinson and Groves10
在主张应把「技术性」理论定义为那种会把概率尖锐地集中到具体先验预测上的理论时,我实际上设下了一个极端之高的严格标准。我们已经看到,模糊理论可以比什么都没有更好。如果没有任何精确理论与之竞争,那么模糊理论就可以战胜无知假说。
在生命与生物学那套核心底层理论之下,存在着一个庞大的模型家族;这套底层理论有时被称为新达尔文主义(neo-Darwinism)、自然选择,或者演化。其中有些演化理论模型是定量的。DNA 编码蛋白质的方式是冗余的;两段不同的 DNA 序列,可能会编码出完全相同的蛋白质。DNA 有四种碱基 {A,T,C,G},三联碱基的可能组合共有 64 种。但这 64 种可能的密码子,只描述了 20 种氨基酸外加一个终止码。因此,遗传漂变(genetic drift)就理应通过那些纯属偶然却最终固定进基因库的突变,在物种基因组中产生不具功能性的变化。
两个具有共同祖先的物种,其基因组之间不具功能性差异的累积速率,取决于诸如已经过去了多少代、以及该基因位点上的选择强度等参数。这就是演化模型家族中一个会产生定量预测的成员。除此之外,还有选择作用下的非平衡等位基因频率、博弈论策略的稳定均衡、性别比,等等。
这些全都属于「迷人词句」这一标题之下。不幸的是,有某些宗教派别长期散布关于演化理论的严重虚假信息。因此我要强调:演化理论内部的许多模型,都能作出经实验确认的定量预测;而这样的模型,早已绰绰有余地证明,例如,人类与黑猩猩确实拥有共同祖先。如果你曾经是神创论虚假宣传的受害者——也就是说,如果你听过任何暗示,说演化理论是有争议的、不可检验的、只是「一种理论」、不够严谨、不够技术性,或者在任何意义上都没有被难以想象的巨量实验性证据所确认——那么我建议你去读《TalkOrigins FAQ》11,并且用数学去学习演化生物学。
但请设想一下:回到十九世纪,自然选择理论才刚刚被 Charles Darwin 和 Alfred Russel Wallace 发现的时候。设想演化论刚出生的那个时代;那时的理论,连今天这套定量模型与堆积如山的实验性证据的影子都没有。那时根本无从知道,人类与黑猩猩后来会被发现共享 95% 的遗传物质。那时谁也不知道 DNA 的存在。可即便如此,科学家们仍然蜂拥投向这套新的自然选择理论。后来,事情又证明:世界上确实存在某种可精确复制、又具有突变潜力的遗传物质;而人类与黑猩猩也确实可以被证明拥有亲缘关系,诸如此类。
所以,我为「技术性」理论所提出的那个极端严格、极端高门槛的标准,其实是过于严格了。从历史上看,仅仅依据我所谓那种「模糊」的预测,人类确实有可能成功地区分出真理论与假理论。比如说,80% 置信度的模糊预测,只要实验够多,照样可以相对于替代假说积累起巨大的优势。也许,这种虽然没有精确细节、却仍然总体正确的预测理论,可以被称作「半技术性」?
但技术性理论总该比半技术性理论更可靠吧?技术性理论总该更优先、更值得尊重吧?物理学能给出极端精确的预测,难道不在某种意义上比演化理论确认得更充分吗?当然,这不是说演化理论是错的;但无论支持演化的证据山脉有多么宏伟,物理学难道不是凭借同样宏伟、却还精确得多的实验性确认,更胜一筹吗?对中子星的观测,把广义相对论的预测确认到了 10^14 分之一的精度。演化理论又拿什么与之匹敌?
Daniel Dennett 曾说过:如果以理论的简洁程度与它所解释的复杂程度来衡量,那么 Darwin 提出的,是有史以来最伟大的单个思想。12
十九世纪的物理学,与十九世纪的演化论之间,曾经的确存在过冲突。根据当时最好的物理模型,太阳不可能已经燃烧了很久。若靠化学能,只能燃烧三千年;若靠引力能,也不过四千万年。十九世纪的物理学里,并不存在任何已知能量来源,能让太阳燃烧得更久。十九世纪的物理学当然还没有现代物理学那么强大——它还做不到把预测精确到 10^14 分之一。但十九世纪物理学已经具有现代物理学那种数学性质:它是一门其模型会产出细致、精确、定量预测的学科。相比之下,十九世纪的演化理论则完全是半技术性的,连一丁点定量模型都没有。就连 Mendel 的豌豆实验,当时都还无人知晓。尽管如此,演化运作所需的时间,看上去仍然很可能远远超过区区四千万年——它需要几亿年,甚至几十亿年。地球的久远古老,是一个模糊而半技术性的预测,来自一套模糊而半技术性的理论。与此相对,十九世纪的物理学家手里却握着一个精确而定量的模型,并能通过形式化计算,推出那个精确而定量的断言:太阳根本不可能燃烧那么久。
由物理科学所强加的地质年代限制,当然不能直接证伪物种转变这一假说;但它似乎足以证伪这样一种学说:物种转变是通过「带着修饰的继承与自然选择」发生的。
——Lord Kelvin,引自 Lyle Zapato13
历史记下了究竟是谁赢了。
寓意是什么?如果你能对某个是非问题给出 80% 置信度的先验预测,那么它也许是一套「模糊」理论;它也许每五次里会错一次;但它仍然可以相对于无知假说积累起大得惊人的得分领先优势。只要没有更好的竞争者,这就足以确认一套理论。现实是自洽的;关于宇宙的每一套正确理论,都与其他每一套正确理论相容。不完美的地图彼此可能冲突,但疆域只有一个。十九世纪的演化论也许只是一个半技术性学科,但它仍然是正确的(这是我们今天知道的),而且也是当时为止最好的解释。任何演化论与另一套被充分确认的理论之间的冲突,都必定意味着某种异常:某个地方有人错误地断言这两套理论互不相容。十九世纪的物理学无法建立太阳动力学的模型——因为他们不知道核反应。他们无法在技术细节上证明自己对太阳的理解是正确的,也无法从一个已被确认的太阳模型中计算出太阳究竟存在了多久。因此,回过头看,我们可以说出类似这样的话:「当时确实存在这样的可能性:十九世纪的物理学其实根本不理解太阳。」
但这只是后见之明。真正的教训在于:即便十九世纪的物理学既精确又定量,它也没有自动压倒十九世纪那套半技术性的演化论。这两套理论都有充分支持。它们都在各自被推广的领域中是正确的。它们之间看似存在的冲突,是一个异常;而这个异常最后被证明,源自十九世纪物理学的不完整与误用,而不是十九世纪演化论的不完整与误用。但要去比较支持这一理论的证据山脉和支持另一理论的证据山脉,是毫无意义的。即便在当时,这两座山都已经大到不该再假设其中任何一套理论只是单纯错了。大到这种程度的证据山脉,不能被摆在一起互相竞争,仿佛一座可以证伪另一座。你必定是在错误地应用其中一套理论,或者把某个模型用到了它并不能良好预测的领域之外。
因此,你并不一定该只因为一套理论是半技术性的,就对它嗤之以鼻。半技术性理论完全可能相对于一切可得替代方案,积累起足够高的分数,以至于你知道这套理论至少大体上是正确的。有朝一日,这套半技术性理论也许会被一个更精确的竞争者所取代,甚至被其证伪;但哪怕对技术性理论来说,这种事也同样可能发生。想想看,Einstein 的广义相对论是怎样吞掉 Newton 的引力理论的。
不过,半技术性理论的正确性——也就是那种目前还没有任何精确、计算上可处理、并且能由可行实验加以检验的模型的理论——往往远没有技术性理论的正确性那样一清二楚。要把好的半技术性理论,与那些纯粹混乱的理论区分开来,需要技巧、耐心和审视。这并不是人类凭本能就能做好的事情;这也正是我们之所以需要科学。
人们总是迫不及待地抢跑,只要抓到任何一个可用理由,就会立刻拿来否定一套自己不喜欢的理论。这就是为什么我举十九世纪演化论的例子:为了说明,人不该太快地把一套「非技术性」理论一棍子打死。按科学的道德风俗来看,十九世纪的演化论犯下的罪可不止一条。十九世纪的演化论没有作出任何定量预测。它也并不容易被证伪。它很大程度上只是对已经看见之物的解释。它甚至缺少一个底层机制,因为那时谁也不知道 DNA。它甚至还与十九世纪的物理定律相冲突。然而,自然选择是一种好得惊人的事后解释,以至于人们纷纷投向它,而事实也证明他们是对的。科学,作为一种人类事业,需要先验预测。概率论,作为数学,却并不区分事后预测与先验预测,因为概率论假设概率分布是某个假说的固定属性。
关于先验预测的那条规则,是科学社会过程中的一条规则——是一种道德习俗,而不是定理。之所以存在这条道德习俗,是为了防止人类犯下那些连用概率论语言都很难描述的人类错误,比如说,在事后偷偷修改你声称自己的假说会预测什么。人们之所以会得出结论,认为十九世纪的演化论是一种极好的解释,哪怕它是事后性的,是因为那种推理在概率论上是正确的,所以尽管它犯下了种种科学上的罪,它仍然奏效了。概率论是数学。科学的社会过程,则是一套防止人类在数学上作弊的法律性约定。
然而,同样真实的是:与现代演化理论家相比,十九世纪末和二十世纪初的演化理论家常常悲惨地走偏。Darwin 本人聪明到足以发明这套理论,因此他看对了惊人之多的事情。但 Darwin 的后继者们,只聪明到足以接受这套理论,却常常严重而频繁地误解演化。后来,只能再靠通常意义上的科学过程来纠正他们的错误。和那些跟在后面的人相比,Darwin14 在《物种起源》和《人类的由来》中所犯的推理错误之少,简直令人难以置信。
这也是半技术性理论的一种危险。即便那道天才般的闪光洞见已经获得确认,一旦缺少形式化模型,资质平平的科学家仍然可能无法正确应用那些洞见。甚至到了 1960 年代,生物学家还在说演化是为了「物种的利益」而运作的,或者暗示个体会克制自己的繁殖,以防某个栖息地里的物种过度繁殖。最好的演化理论家知道事情并非如此,但一般水平的理论家却不知道。15
所以,拥有一套技术性理论,确实要比拥有一套半技术性理论好得多。不幸的是,大自然并不总是那么仁慈,愿意让自己被整洁、形式化、并且计算上可处理的模型所描述;她也不总是会给她的学生们提供能够直接探测她那些现象的测量仪器。有时,这只是时间问题。十九世纪的演化论是半技术性的,但后来出现了群体遗传学的数学,而再后来又有了 DNA 测序。大自然并不会在你刚刚获得基本洞见的十五秒之后,就总是立刻给你一个你能用技术模型来描述的现象。
然而,科学的最前沿,也就是争议本身,往往讨论的正是一套半技术性理论,或者是某种伪装成半技术性理论的胡说八道。等到一套理论取得技术性地位时,它通常就不再有争议了(至少在科学家之间如此)。因此,如何把好的半技术性理论与胡说八道区分开来,对科学家来说就是一个极其重要的问题;而这绝不像把任何非技术性理论一概打入冷宫那么简单。整个理性学科之所以存在,目的正是为了区分真与假。这门技艺并不能被还原成一张检查清单——至少,绝不存在某种平均水平的科学家只要训练一小时,就能可靠应用的检查清单。要是事情真有这么简单,我们就不需要 Science 了。
你为什么会去关注科学争议?为什么要去啃食这样稀薄而腐败的饲料——媒体所提供的东西——明明教科书里有那么多扎实的正餐可吃?教科书科学是美的!教科书科学是可理解的,这可不同于那种只会让人着迷的词句——后者永远不可能真正美。没有数学,那些迷人词句既没有力量,也没有意义。迷人词句不是知识,只是知识的幻觉;这就是为什么仅仅知道「引力来自时空的弯曲」,会带来如此微薄的满足感。科学不在那些迷人词句里,虽然你在突发新闻里读到的永远都只有它们。
追随某场科学争议,当然也可能是正当的。你可能正是那个领域的专家,那样的话,这场科学争议就是你的正餐。或者,这场科学争议也可能是你现在就必须知道答案的,因为它会影响你的生活。也许现在是十九世纪,而你正满怀欲念地看着一位穿着十九世纪泳装的合适性别之人;于是你就得知道,你的性欲到底来自一套由自然选择塑造出来的心理机制,还是来自魔鬼安置在你体内、用来把你引入地狱烈火的诱惑。
并不是完全不可能:我们恰好会撞上一场真正影响自身的科学争议,并发现自己对正确答案有一种炽热而迫切的需求。因此,我接下来将讨论一些警示信号:历史上,正是这些信号把那些后来被证明只是非科学胡言乱语的模糊假说,与那些后来成功升级为已确认理论的模糊假说区分开来。只要记住十九世纪演化论这条历史教训,抵抗住那种诱惑:不要因为某套理论漏掉了你清单上的一项,就立刻判它不及格。我并不想给人们另一个借口,好让他们去否定那些让自己不舒服的优良科学。如果你对自己不喜欢的理论使用比对喜欢的理论更严格的标准(或者反过来!),那么你每学会多挑一个刺、每学会多识别一种逻辑缺陷,都会让自己变得更愚蠢一点。智能若要有用,就必须被用在某种不同于击败它自身的事情上。
一套糟糕假说的经典标志之一,就是它必须付出巨大努力来逃避证伪——拼命罗列各种理由,说明这套假说依然与现象相容,尽管现象的表现根本不如预期。Carl Sagan 举过这样一个例子:某人声称自己车库里住着一条龙。Sagan 原本从中得出的教训是:糟糕假说必须靠快速闪转腾挪,才能逃过证伪——维持一种「契合」的表象。16
而我想指出的是,这位声称者显然在自己脑中某个地方拥有一个关于情境的好模型,因为他能够提前准确预测出自己将需要哪些借口。对一个贝叶斯主义者来说,假说并不是某种你用高声、强调而激烈的语调去断言的东西。假说是某种支配你预期的东西,支配你分配给未来经验的那些概率。对贝叶斯主义者而言,概率就是这个——这就是你打分的东西,这就是你校准的东西。所以,尽管我们的那位声称者也许会大声、强调而诚实地说,他相信车库里有一条隐形龙,但他并不预期车库里有一条隐形龙——他所预期的经验,与怀疑者所预期的经验完全一样。
当我判断一个假说的预测时,我问的是:我会预期哪些经验,而不是我会相信哪些事实。
反过来的另一面是:
最近,我和一位朋友就演化理论中的一个问题争论起来。我朋友声称,化石记录中变化的成簇分布(显然,有些时期相对静止,随后则是相对尖锐的变化;这本身也是一个有争议的观察,叫作「间断平衡」)表明我们对物种形成的理解里有某种问题。我朋友认为,有某种未知力量在起作用——不是超自然的,而是某种标准演化理论没有纳入考虑的自然因素。由于我朋友并没有给出一个能作出更好预测的具体竞争假说,那么他的论点就只能是:标准演化模型在面对这些数据时是愚蠢的——也就是说,标准模型对这些数据作出了一个具体而错误的预测;这个模型在这些数据上的表现,甚至比完全无知或者别的默认竞争者还差。
一开始我掉进了陷阱;我接受了那个隐含前提,认为标准模型会预测平滑性,于是把我的论证建立在这样一段记忆上:化石记录里的变化其实并没有他声称得那么尖锐。他挑战我拿出 Homo erectus 和 Homo sapiens 之间的一个演化中间型;我去 Google,找到了 Homo heidelbergensis。他祝贺我,并承认我得了一个大分,但仍然坚持说这些变化太尖锐了,而且不够稳定。我开始解释,为什么我认为标准模型可以产生一种不均匀变化的模式:环境选择压力未必恒定……「啊哈!」我朋友说,「你这是在提前找借口。」
可假设化石记录恰恰呈现出一组平滑而渐进的变化呢?那我的朋友会不会反过来主张:演化的标准模型作为一个混沌而嘈杂的过程,不可能解释这种平滑性?如果事后宣称我们心爱假说预测了这些数据,是一种科学上的罪,那么事后宣称那个竞争假说在这些数据面前表现愚蠢,难道不也同样是一种罪吗?
如果一个假说拥有一个纯粹技术性的模型,那就没有麻烦;我们可以形式化地计算该模型的预测,而不必留下任何可供事后篡改的非正式变量把手。但半技术性理论又怎么办?显然,一套半技术性理论总该对某些东西作出某些好的先验预测,否则我们何必理它?但在这套理论已经半确认之后,反对者还能否声称数据暴露出这套半技术性理论的某个问题,而这个「问题」其实完全是事后构造出来的?至少,反对者必须极其具体地说明:这套已确认模型究竟在哪些数据上预测得很蠢,以及为什么这套已确认模型必然会(事后地)作出那种愚蠢预测。到底多尖锐的变化,定量地说,才算是标准演化模型所不能允许的「太尖锐」?你究竟认为标准演化模型会预测出多大的稳定性?你是怎么知道的?等你已经看完数据之后,再说这些,会不会已经太晚了?
当我朋友指责我是在找借口时,我停下来问自己:我到底预期自己需要找哪些借口。我最后的结论是:就我当时对演化理论的掌握而言,它并没有告诉我,演化变化的速率究竟应该是间歇而锯齿状,还是平滑而渐进。如果我事先没看过那张图,我就根本无法预测它。(不幸的是,即便是作出这个判断,我也已经是在看过数据之后了……)也许在演化模型家族里,确实存在某些模型,能够对稳定性或波动性作出先验预测;但如果真有,我并不知道。更关键的是,我朋友也不知道。
去问一套理论的反对者,它的竞争者会预测什么,并不总是明智的。关于某套理论的预测,应该先去找这套理论最好的拥护者来问。只不过要确保:把他们的预测事先写下来。没错,有时一套理论的拥护者确实会试图让理论去「契合」那些明明不契合的证据。但如果你发现自己正在琢磨一套理论会预测什么,那就先去找这套理论的拥护者询问;之后,再去找批评者交叉质询。
此外:模型里也可能包含噪声。如果我们假设数据正在缓慢而稳定地上升,但我们的测量仪器有 5% 的误差,那么你就不能只指着某个跌到前一个数据点之下的数据点,便得意洋洋地大喊:「看!它下降了!下降下降下降!而且别跟我说为什么你的理论还能契合这个下跌;你那只是在找借口!」形式化的技术模型,经常会把显式的误差项纳入其中。误差项会把似然密度摊开,降低模型的精确性,也减少理论的得分,但贝叶斯评分规则仍然支配全局。一个技术模型可以允许出错、可以真的出错,但它仍然可以比无知表现得更好。在我们那个超市例子里,连那个精确假说 51,也只不过把 90% 的概率质量押在 51 上;这个精确假说主张的仅仅是:51 会在十次里发生九次。你要是无视那九个 51,只指着一次 82,便在胜利中啼叫起来,那可根本不算反驳。这不是借口,而是一套技术模型明确写下的先验预测。
误差项会让那套「精确」理论暴露在一个超精确替代者面前——那个替代者恰好预测到了 82。标准模型也同样会暴露在一个「精确地无知」的模型面前——那个模型会在我们看到 82 的那一轮上,预测 51 只有 60% 的概率,并在那一次特定误差上把似然摊得更广、更具熵性。无论一套理论有多好,科学里永远都有留给更高得分竞争者的空间。但如果你没有提出一个更好的替代方案,如果你只是试图表明一套已被接受的理论在数据面前是愚蠢的,那么这种科学努力,也许反而比单纯用一套新理论替换旧理论还要更苛刻。
天文学家记录到了水星近日点推进中的那个无法解释的偏差——至少在 Newton 物理学之下,这个偏差是无法解释的;或者更准确地说,Newton 物理学预测的是每世纪 5,557 角秒,而观测值却是 5,600。17 但那个时代的科学家,难道应该仅仅根据这样微小、又解释不通的反证,就把 Newton 引力论整个扔掉吗?那他们又该拿什么来替代?最后,Newton 的引力理论确实被放到一边了,因为 Einstein 的广义相对论精确解释了水星的轨道偏差,并且还作出了成功的先验预测。但事先根本没有办法知道,事情最终会以这种方式发展。
十九世纪时,天王星轨道中一直存在一个顽固的异常。有人说:「也许 Newton 定律在远距离上开始失效了。」后来,一些聪明家伙看着这个异常,说:「会不会是某颗未知的外侧行星?」Urbain Le Verrier 和 John Couch Adams 彼此独立地涂涂算算,使用的还是 Newton 的标准理论——结果他们把海王星的位置预测到了 1 角度之内,并因此戏剧性地确认了 Newton 引力论。18
直到广义相对论之后精确地推出了水星近日点推进,我们才知道:Newton 引力论永远也解释不了它。
在《直观解释》里,我们已经看过 Karl Popper 的那个洞见——证伪比证实更强——是如何翻译成一个关于似然比的贝叶斯真理的。Popper 的错误在于,他以为证伪与证实在性质上不同;其实二者都受同一套贝叶斯规则支配。但 Popper 的哲学确实反映了一条重要真理:证伪与证实之间存在某种定量上的差异。
Popper 深受这样一种差异所震动:一边是 Freud 与 Adler 那些据称「科学的」理论,另一边则是 Einstein 的相对论在本世纪前二十年于物理学中所引发的革命。依 Popper 所见,它们之间的主要差别在于:Einstein 的理论高度「冒险」,意思是说,人们可以从中推导出一些结果,而这些结果在当时占支配地位的 Newton 物理学看来是高度不可能的(例如,光线会朝实体发生偏折——这一点后来被 Eddington 在
1919年的实验所确认),并且如果这些结果被证明为假,就会证伪整个理论;而精神分析理论却没有任何东西,哪怕在原则上,也能证伪它们。Popper 于是逐渐觉得,后者与真正科学相比,和原始神话反而有更多共同之处。也就是说,他看出,精神分析表面上最大的力量来源、也是其科学地位主张的主要基础——即它能够容纳并解释一切可能形式的人类行为——事实上恰恰是一种致命弱点,因为这意味着它并不、也不可能真正具有预测性。精神分析理论按其本性来说,过于不精确,无法产生负面蕴含,因此也就被免疫于经验性的证伪……
因此,Popper 否定归纳,并拒绝把归纳视为科学探究与推理的特征性方法,而改以可证伪性取而代之。他论证说,几乎对任何理论都很容易获得支持性证据;因此,他主张,这种他所谓的「佐证」,只有在它是一项真正「冒险」预测的正面结果时,才应当被科学地计数,而这种预测本来是完全有可能被证明为假的。对 Popper 而言,一套理论只有在可被某个可设想事件反驳时,才是科学的。因此,每一次真正对科学理论的检验,在逻辑上都是一次试图反驳或证伪它的尝试……
因而,在 Popper 看来,每一套真正的科学理论,本质上都是一种禁止性的理论:它通过蕴含,禁止某些特定事件或现象的发生。19
在 Popper 的哲学里,一套科学理论的力量不在于它解释了多少东西,而在于它没有解释多少东西。一套科学理论的美德,不在于它允许哪些结果,而在于它禁止哪些结果。Freud 的那些理论看上去仿佛什么都能解释,却没有禁止任何事情。
把这翻译成贝叶斯术语,我们就会发现:一个模型所禁止的结果越多,这个模型就会把越多概率密度集中在那些仍被允许的结果上。一套理论所禁止的结果越多,这套理论的知识含量也就越大。一套理论越是大胆地把自己暴露在证伪风险之下,它就越明确地告诉你:你该预期怎样的经验。
一套能够解释任何经验的理论,对应的就是一个完全无知的假说——也就是一个均匀分布,其概率密度平均铺在每一个可能结果之上。
燃素(Phlogiston)是 18 世纪对希腊炼金术士「元素之火」的回答。你没法用燃素理论去预测一次化学转化的结果——你总是先看到结果,然后再拿燃素去解释它。燃素理论具有无限的可塑性;它不过是一个伪装起来的零知识假说。同样地,活力论并不能解释手是如何运动的,也不能告诉你有机化学中会发生哪些转化;而且活力论当然也不允许任何定量计算。
反过来说:
要警惕清单式思维:拥有一个神圣的谜团,或者一个神秘答案,并不等于拒绝解释某件事。我们当前物理学中的某些要素被视为「基本的」,还没有被进一步还原或解释。但这些物理学基本要素本身,仍受明确界定、数学上简单、形式上可计算的因果规则支配。
有时会有某些怪人反对现代物理学,理由是它没有为某条当前被视作基本的数学定律提供一个「底层机制」。(声称某条数学定律缺乏「底层机制」,是 John Baez 的《怪人指数》中的一个条目。20)而这个怪人给出的所谓「底层机制」往往含糊、口头化,而且并不能带来任何预测力的提升——否则,我们就不会把他说成怪人了。
我们当前的物理学把电磁场视为基本要素,并拒绝再进一步解释它。但「电磁场」这个基本要素受清晰的数学规则支配,除了这些数学规则之外别无其他属性,并且可以接受形式计算来描述它对世界的因果作用。将来或许会有人提出更好的数学,从而给出更好的预测,但我不会以「神秘」为理由去起诉当前模型。一个包含基本要素的理论,并不等同于一个包含神秘要素的理论。
基本要素应当是简单的。「生命」不是一个好的基本要素,「氧」是一个好的基本要素,而「电磁场」则是更好的基本要素。对活力论者来说,生命或许看上去很简单——它无非是你的肌肉在心智指挥下运动的那种简单、神奇能力。那为什么生命不能由某种简单、神奇的基本实体,例如生命冲力(élan vital),来解释呢?但那些在心理上显得极其简单的现象——天空中的小光点、橙亮炽热的火焰、肉体在心智指挥下运动——往往掩藏着深不可测的底层复杂性。对活力论者来说,「生命是一种复杂现象」这个命题也许难以置信;他们面对的是一团空白而不透明的谜团,似乎根本无从下手;但没错,Virginia,底下确实有复杂性。与奥卡姆剃刀相关的简单性标准,是数学上的或计算上的简单性。一旦我们把模型还原成数学上简单的基本要素,而这些要素本身并不具备那种谜团的神秘性质;再让这些要素以明确界定的方式相互作用,从而把先前神秘的现象作为一个细致的预测推导出来——那就已经是人类迄今所知最不神秘的状态了。
这个世界上有许多人相信,死后他们会面对一个目光严厉、名叫 St. Peter 的家伙;他会检查他们一生中的行为,并为其道德积累一个分数。想来 St. Peter 的计分规则应当是唯一的,并且在视角做平凡变化时保持不变。遗憾的是,信徒们拿不到这套规则的定量、精确可计算说明,这看起来着实有点不公平。
贝叶斯教主张:你的永恒命运取决于你生前作出的概率判断。与那些低等信仰不同,贝叶斯教能够给出一个定量且精确可计算的说明,告诉你你的永恒命运究竟如何被决定。
我们前面得到的恰当贝叶斯计分规则,提供了一种跨实验累积分数的方法;无论我们如何切分这些「实验」,或者以何种顺序累积结果,分数都保持不变。我们把各个概率取对数再相加。这等价于把每次实验中你赋给实际结果的概率全部相乘,从而得到所有实验合起来的联合概率。我们之所以取对数,是为了简化我们对累积分数的直观理解,帮助我们把握那些极小的分数,并确保我们是通过说出自己诚实的概率,而不是把全部赌注都压在最可能的选项上,来最大化自己的期望分数。
贝叶斯教说,当你死后,Pierre-Simon Laplace 会检查你一生中的每一件事:从早晨发现鞋子还在床边,到发现工作地点还在它惯常的位置上。每一张没中奖的彩票都意味着你曾经在乎到愿意去买。Laplace 会评估你事先赋给每个事件的概率。如果你没有提前给出精确的数值概率,Laplace 就会检查你的预期程度或惊讶程度,外推其他可能结果以及你对这些结果的外推反应,并把你这些外推出的情绪重新归一化为一个覆盖可能结果的似然分布。(这也就是「拉普拉斯式超智能」这一说法的由来。)
然后,Laplace 会把你一生中的每个事件,以及你赋给每个事件的每个概率,统统乘在一起。这就是你的最终审判——也就是你赋给自己一生的那个概率。
贝叶斯教的追随者会终其一生去最大化自己的最终审判。这是贝叶斯教唯一的美德。剩下的都只是数学。
请注意:贝叶斯教的道路是严苛的。每天早晨,对于「太阳将会升起」这个命题,你该赋予多大的概率?(像阴天、以及其实是地球绕太阳转之类的小问题,我们就先略过。)也许一个不信贝叶斯教的人会谦虚些,只给出 99.9% 的概率。但我们这些贝叶斯教徒必须抛开一切谦逊与傲慢的考量,只盘算如何最大化自己的最终审判。就像一个强迫症式的视频游戏玩家,我们只在乎这个数值分数。我们每年都要面对 365 次「太阳将升起」的问题,所以只要稍微调一调这个概率赋值,就可能显著改善我们的最终审判。
照现在这样,就算太阳每天都升起,我们的最终审判每年仍会乘上一个 0.999365 = 0.7 的因子,大约是 −0.52 比特。每过两年,我们的最终审判下降的幅度就会超过一次对掷硬币结果一无所知的情况!这无法容忍。如果我们把每天日出的概率提高到 99.99%,那么每年的最终审判就只会乘上 0.964。这好一些。但即便如此,假如我们很不走运,恰好活满 70 年后死去,那么我们的最终审判也只会是本来可能达到值的 7.75%。如果我们把日出的概率赋成 99.999% 呢?那么 70 年后,我们的最终审判就会被乘以 77.4%。
那为什么不直接赋 1.0 的概率呢?
贝叶斯教的追随者对任何事情都绝不会赋予 1.0 的概率。给某个结果赋予 1.0 的概率,就等于耗尽了你全部的概率质量。如果你给某个结果赋了 1.0,而现实给出了不同的答案,那你就必然给实际结果赋了零概率。这是贝叶斯教唯一的致命原罪。零乘任何东西都还是零。当 Laplace 把你一生中的所有概率乘在一起时,总合概率就会变成零。你的最终审判将什么也不是,彻底归零,空空如也。无论你在余生中其余的猜测多么理性,你都要永远和那个相信飞碟、所有信息都来自《Weekly World News》的家伙待在一起。再次地,我们会发现取对数很有帮助,因为它会揭示那个听上去很无辜的「零」的真面目。把某个结果的概率冒险压到零,就像是接受一场回报为负无穷的赌局。
如果人类决定把太阳拆掉以获取质量(恒星工程),或者因为它在浪费熵而把它关掉,怎么办?好吧,你会说,你会提前看见这种事,你有机会在事件真正发生前修改自己的概率赋值。可如果某人地下室里的某个人工智能递归地自我提升为超智能,偷偷发展出纳米技术,并在某天早晨它把太阳拆掉了呢?如果在世界末日前的最后一夜里,你给明天的日出赋予 99.999% 的概率,那么你的最终审判就会下降一个 100,000 的因子。负 50 分贝!糟透了,不是吗?
那你的最佳策略是什么?好吧,假设你有 50% 的把握认为,一个地下室里诞生的 AI 超智能会在未来十年内把太阳拆掉,而你估计这件事在现在到那时之间的任意一天发生的可能性都差不多相等。那么在任意一个夜晚,你都会对明天日出赋予 99.98% 的预期。如果这真的就是你的预期,那你除了把自己的概率说成 99.98% 以外,就没有任何理由说别的数。如果你觉得这个预期太低,或者太高,以至于感到不安,那它在把你的不安纳入考虑之后,就不再是你真正的预期了。
但贝叶斯教更深的一层真理在于:你没法钻系统的空子。你不能给出一个谦卑的答案,也不能给出一个自信的答案。你必须弄清楚自己到底在多大程度上预期明天太阳会升起,然后把那个数字说出来。你必须把谦逊或傲慢的每一根毛都刮掉,然后问自己:你预期自己最终会因为太阳升起而得分,还是因为它没有升起而得分?不要去看你的借口,而要问你预期自己会需要哪一种借口。当你得出自己那个精确的预期程度之后,进一步改善最终审判的唯一办法,就是提高你预期的准确性、校准性与区分度。除了猜得更准、预期得更精确之外,你做不到更好。
呃,当然,还是有一个例外:你可以在五岁那年就自杀,从而阻止你的最终审判进一步下降。或者,如果我们给效用函数再补上一条新罪行,禁止自杀,那你还可以逃离谜团,躲开一切那些你觉得自己可能并不了解一切的处境。所以,这宗教也就不过如此。
理想情况下,我们会先用模型对实验结果作出预先预测,然后再进行实验,看看结果是否与模型相符。可惜的是,我们并不能总是控制信息流。有时自然会把经验直接甩到我们脸上,等我们想到一个解释的时候,原本该被解释的数据其实已经先被我们看到了。19 世纪的进化论就犯过这种科学上的罪:Darwin 在想到自然选择这个假说之前,就已经观察到了许多物种之间的相似性,以及它们对各自局部环境的适应。19 世纪的进化论起初是一个事后解释,而不是一个预先预测。
这也不仅仅是半技术性理论才会遇到的麻烦。1846 年,从 Uranus 轨道中的引力扰动成功推导出 Neptune 的存在,被视作牛顿引力理论的一次伟大胜利。为什么?因为 Neptune 的存在,是第一次通过预先预测而得到确认的牛顿引力观测。牛顿所解释的其他所有现象,例如轨道、轨道扰动与潮汐,在他解释它们之前就已经被人详细观察过。没有人严肃怀疑过牛顿理论是正确的。牛顿理论解释得太多、也太精确,并且它用一条统一的数学定律取代了一堆特设模型。即便如此,对 Neptune 存在的预先预测,以及后来在几乎恰好被预测的位置上观测到 Neptune,仍被认为是牛顿理论第一次伟大地预测出此前没有任何模型能够预测的东西。在牛顿理论被广泛接受,与牛顿引力出现第一次令人印象深刻的预先预测之间,相隔了相当长的一段时间。到牛顿提出自己的理论时,科学家其实已经详细观察过牛顿引力所预测的大多数现象。
但预先预测这条规则,是科学的一条道德规范,不是概率论的一条定律。如果你已经看到了你必须去解释的数据,那么 Science 也许会把你骂个狗血淋头,但你的处境并不会让概率论的定律崩塌。真正会发生的,是一个可怜的人类会变得更加难以服从概率论的法则。当你要根据贝叶斯计分规则评估一个假说时,你需要弄清楚那个假说给所观察到的结果赋了多少概率质量。如果我们必须事先作出预测,那么就更容易发现:某个人是否在试图把每一个可能结果都说成是自己的预先预测、是否用了过多概率质量、是否故意搞得含糊以逃避证伪,诸如此类。
没有任何一个数字命理学家能预测下周的彩票开奖号码,但他们会很乐意去解释上周开奖号码的神秘意义。假设上周的彩票里,中奖的 Mega Ball 是 7,而可能结果总共有 52 个。显然,这件事发生,是因为 7 是幸运数字。那么,下周的彩票 Mega Ball 也会开出 7 吗?我们当然明白,这并不是确定无疑的;但如果 7 真是幸运数字,你就应该给它一个高于 1/52 的概率……然后接下来几年里我们都会给你的猜测计分;如果你的分数太低,我们就把你拖出去鞭打……什么,你说什么?你想赋予一个恰好等于 1/52 的概率?可那和其他每个数字的概率都一样;那 7 的幸运性到哪里去了?不,抱歉,你不能一边给 7 赋 90% 的概率,一边又给 11 赋 90% 的概率。我们明白,它们两个都是幸运数字。对,我们明白它们是非常幸运的数字。但事情不是这么运作的。
即使听者不懂贝叶斯之道,也没要求你给出形式化概率,如果你试图把所有可能结果都往自己理论里兜,他们大概还是会起疑。假设他们让你预测下周 Mega Ball 的中奖号码,而你用数字命理学来解释为什么 1 号球和你的理论非常契合、2 号球和你的理论也非常契合、3 号球也非常契合……哪怕是最轻信的听众,恐怕等你数到 12 的时候也要开始提问了。也许你可以告诉我们,哪些数字是不幸的、绝对不会中彩票?嗯,13 是不幸的,但它并不是绝对不可能(你开始给自己留后路,预先设想着自己可能需要哪种借口)。
可如果我们请你解释上周的彩票号码,那 7 就几乎是不可避免的了。那个 7 当然应该算作「幸运数字」彩票模型的一次重大成功。而且它绝不可能是 13;幸运理论把那种可能性干脆利落地排除了。
设想有一天早晨醒来,你发现自己的左臂被一根蓝色触手取代了。这根蓝色触手会服从你的运动指令——你可以用它拿起杯子、开车,等等。你会如何解释这个假设情景?继续读下去之前,不妨先花一点时间思考这个谜题。
(剧透空白……)
如果我的左臂被蓝色触手取代了,我会怎么解释这件事?答案是:我不会。因为这根本不会发生。
要炮制一个与这个假设「相符合」的口头解释,其实再容易不过。存在许多可以「适配」任何东西的解释,而「任何东西」当然也包括「我的手臂被一根蓝色触手替换」这个特例。神明干预就是一种很好用的通用解释。或者是拥有任意动机与能力的外星人。又或者我疯了、在幻觉中,或者我正躺在医院里把整个人生都梦过去。这样的解释对所有结果都同样适配得好,也同样适配得差,本质上等价于完全无知的假说。
一个现实模型是否「解释」了我的手臂变成蓝色触手,要看的是:那个模型是否把显著的概率质量集中到了那个特定的结果上。为什么偏偏是在医院里的那个梦?为什么外星人偏偏要对我做这件事,而不是它们可能做的另外十亿种事情?为什么偏偏是那天早晨,我的手臂变成了一根触手,而不是我生命中其他每个早晨它都还是手臂?而且在所有这些情形中,我都必须寻找一种足够有说服力的论证,使它能够预先推出那个特定预测,而不是事后仅仅说它相容。一旦我已经知道了结果,要从一堆假说里筛出好解释就会困难得多。无论我尝试哪种假说,我都会很难不让它给昨天那个蓝触手结果分配更多的概率质量——相比之下,如果我只是盲目外推,去寻找那个模型对明天的最可能预测,就不会如此。
模型并不总是会预测数据的全部特征。自然并没有什么特权性的倾向,非要把可解的挑战送到我面前。也许有某个神在戏弄我,而这个神的心智在计算上根本无法处理。如果我掷一枚公平硬币,那么就根本没有进一步解释这个结果的办法;不会有哪个模型能比最大熵假说做出更好的预测。但如果我瞎猜一个没有内部细节的模型,或者一个根本不再作进一步预测的模型,那么我不仅没有理由相信那个猜测,也没有理由在意它。昨晚我的手臂被一根蓝色触手替换了。为什么?外星人!那它们明天还会做什么?同样地,如果我把这根蓝色触手归因于自己在昏迷中把一生都梦掉时产生的幻觉,那我仍然不知道明天自己还会幻觉出什么。所以,无论是外星人还是幻觉,我为什么要在意?
那么,如果某天早晨我醒来发现手臂变成了蓝色触手,什么才算是一个好的解释?要声称某种论证是对这个假设经验的一个「好解释」,那就要求这个论证强到这样一种程度:我现在,在手臂还没变成蓝色触手之前,光是想到这条假设性的论证,就会带着忧虑入睡,担心自己的手臂真的会变成一根触手。
人们总爱玩一种「看起来说得通」的游戏:去解释那些他们预期自己永远都不会真正遇到的事件;但这必然违反概率论的法则。有多少人觉得自己能够「解释」那种「醒来后发现手臂被触手替换」的假设经验,却会带着忧虑入睡,担心这件事真的发生在自己身上?如果他们真有勇气承担自己的信念,他们就该说:我并不预期自己会遇到这种假设经验,因此我既无法解释它,也没有动机去尝试解释它。这种事只会发生在网络漫画里,而我没必要为之准备解释,因为在现实生活中我永远不会有机会用上它们。如果我真的发现自己落入这种不可能的处境,那就让我不要错失丝毫宝贵的困惑吧。
对贝叶斯主义者来说,概率是预期,不是拿到屋顶上去宣告的空泛信念。如果我有一个模型,会给「醒来时长出蓝色触手」分配概率质量,那我就会对醒来时长出蓝色触手感到紧张。那如果这个模型很奇幻,比如一个女巫施法把我送进了一部随机抽中的网络漫画里呢?那么,网络漫画巫术的先验概率就低到这样一种程度:我对现实世界的理解不会给那个假说分配任何显著权重。把巫术假说当作前提时,它也许会给「醒来时长出蓝色触手」分配一个并非可以忽略的似然值。但我对那个假说的预期本身太低了,所以我压根不会去预期那个假说所推出的任何预测。我能设想到一个巫术假说,这件事并不应在任何程度上削弱我真的醒来发现自己长了根触手时那种彻底的困惑,因为我在现实世界中赋给巫术假说的概率实际上等于零。我的零概率假说并不能帮助我解释自己醒来后长了根触手,因为那条论证根本不足以让我预期自己会醒来后长出一根触手。
在概率论的法则里,似然分布是一个假说的固定属性。在理性的技艺中,解释就是预期。预期就是解释。假设我是一名医学研究者,而在推进研究的日常过程中,我注意到我那套聪明的新解剖理论似乎容许一种微小而模糊的可能性:我的手臂会变成一根蓝色触手。「哈!」我说,「这可真稀奇又滑稽!」与此同时也感到了一丝轻微的不安。那才会成为一个好的解释——如果我真有一天醒来长出触手的话。
如果一条推理链无法让我在事先就对「自己醒来后长出触手」感到紧张,那么一旦那件事真的发生,这条推理就会是一个糟糕的解释,因为它的先验概率与似然的组合实在太低,低到不足以让我为那个结果分配任何显著的现实世界概率质量。
如果你从校准良好的先验出发,并运用贝叶斯推理,那么你最终会得到校准良好的结论。想象一下,散布在宇宙不同星球上的两百万个实体,都有机会遭遇某种奇特的事情,比如醒来后发现自己长了触手(或者——天哪!——长着十根手指)。其中一百万个实体会说:某个假说 X 的先验概率是「千分之一」,而且每个假说 X 都说「醒来长出触手」的似然是一百分之一。另有一百万个实体会说:某个假说 Y 的先验概率是「百分之一」,而每个假说 Y 都说醒来长出触手的似然是十分之一。如果我们假设所有这些实体都校准良好,那么放眼整个宇宙,我们就会发现:大约有十个实体是因为属于可信度类别 X 的假说而醒来长了触手;而大约有一千个实体会因为属于可信度类别 Y 的假说而长出触手。所以,如果你发现自己长出了触手,而且如果你的概率确实校准良好,那么这根触手更可能源自一个你会归入「较为可信」类别的假说,而不是一个你会归入「较不可信」类别的假说。(如果你的概率校准得很差,以至于你说「百万分之一」的时候,实际上这种事二十次里就会发生一次,那你就严重过度自信了;于是我们就要把你的概率朝着更低区分度、更高熵的方向修正。)
「被送进一部网络漫画里」这个假说,即便它确实「解释」了醒来后长出蓝色触手这个情景,仍然是一个糟糕的解释,因为它的先验概率太低了。网络漫画假说对解释这根触手没有贡献,因为它并不会让你预期自己会醒来长出一根触手。
如果我们从一个分散在宇宙各处的一千万亿个有感知心智开始,那么会有相当多的实体遭遇非常可能的事件,只有大约一百万个实体会经历那种一生中似然只有十亿分之一的事件(正如我们用无限双眼和完美校准去观察时所会预期的),而不会有哪怕一个实体经历不可能事件。
如果,不知怎么地,你真的醒来发现自己长出了一根触手,那么它更可能是由于某个比「被送进网络漫画」概率高得多的原因——某个完全正常、只是你先前没想到的,让你醒来长出触手的原因。比如什么原因?我不知道。没有。因为我并不预期自己会醒来长出触手,所以我没法给出任何好的解释。我为什么要费心去编造那些我不预期自己会用上的借口?如果我担心自己有一天可能需要一个巧妙的借口来解释醒来长出触手,那么让我对这种可能性感到紧张的理由本身,就会是我的解释。
现实分发经验依据的是概率,而不是「看起来说得通」。如果你发现自己的笔记本电脑不遵守动量守恒,那么在现实看来,那一定是对你做的一件完全正常的事。可违背动量守恒怎么可能是一件完全正常的事?我预期这个问题没有答案,也永远不需要答案。同样地,人们不会醒来长出触手,所以显然这也不是什么完全正常的事。
存在一个令人心神破碎的真相,它如此令人惊讶、如此令人恐惧,以至于人们会竭尽全力抗拒它的含义。可仍然有少数孤独的人,拥有接受这份顿悟(satori)的勇气。这里有一则智慧,若你愿意变得明智:
自开天辟地以来
从未有过哪怕一件
不寻常的事情发生。
唉,那些把目光从斑马身上移开、转而梦想巨龙的人啊!如果我们学不会为纯粹现实而喜悦,那么我们的生命确实会空空如也。
Edwin T. Jaynes,《Probability Theory: The Logic of Science》,George Larry Bretthorst 编(New York:Cambridge University Press,2003),doi:10.2277/0521592712。 ↩︎
Feynman、Leighton 与 Sands,《The Feynman Lectures on Physics》。 ↩︎
懂微积分的读者可以验证:在更简单的情形下,若一盏灯只有两种颜色,p 表示押在第一种颜色上的赌注,f 表示第一种颜色出现的频率,那么期望收益 f × (1 − (1 − p)2) + (1 − f) × (1 − p2),在 p 为变量、f 为常量时,会在我们令 p = f 时达到全局最大值。 ↩︎
不记得该如何读 P(A|B) 了吗?见贝叶斯推理的直观解释。 ↩︎
J. Frank Yates 等,《Probability Judgment Across Cultures》,收于 Gilovich、Griffin 与 Kahneman 编《Heuristics and Biases》,271–291。 ↩︎
Karl R Popper,《The Logic of Scientific Discovery》(New York:Basic Books,1959)。 ↩︎
Jaynes,《Probability Theory》。 ↩︎
Imagination Engines, Inc.,“The Imagination Engine® or ImagitronTM”,2011,http://www.imagination-engines.com/ie.htm。 ↩︎
Friedrich Spee,《Cautio Criminalis; or, A Book on Witch Trials》,Marcus Hellyer 编并译,Studies in Early Modern German History(1631;Charlottesville:University of Virginia Press,2003)。 ↩︎
引自 Dave Robinson 与 Judy Groves,《Philosophy for Beginners》,第 1 版(Cambridge:Icon Books,1998)。 ↩︎
TalkOrigins Foundation,“Frequently Asked Questions about Creationism and Evolution”,http://www.talkorigins.org/origins/faqs-qa.html。 ↩︎
Daniel C. Dennett,《Darwin’s Dangerous Idea: Evolution and the Meanings of Life》(Simon & Schuster,1995)。 ↩︎
引自 Lyle Zapato,“Lord Kelvin Quotations”,2008,http://zapatopi.net/kelvin/quotes/。 ↩︎
Charles Darwin,《On the Origin of Species by Means of Natural Selection; or, The Preservation of Favoured Races in the Struggle for Life》,第 1 版(London:John Murray,1859),http://darwin-online.org.uk/content/frameset?viewtype=text&itemID=F373&pageseq=1;;Charles Darwin,《The Descent of Man, and Selection in Relation to Sex》,第 2 版(London:John Murray,1874),http://darwin-online.org.uk/content/frameset?itemID=F944&viewtype=text&pageseq=1。 ↩︎
Williams,《Adaptation and Natural Selection》。 ↩︎
Carl Sagan,《The Demon-Haunted World: Science as a Candle in the Dark》,第 1 版(New York:Random House,1995)。 ↩︎
Kevin Brown,《Reflections On Relativity》(Raleigh, NC:printed by author,2011),405-414,http://www.mathpages.com/rr/rrtoc.htm。 ↩︎
同上。 ↩︎
Stephen Thornton,“Karl Popper”,收于《The Stanford Encyclopedia of Philosophy》2002 年冬季卷,Edward N. Zalta 编(Stanford University),http://plato.stanford.edu/archives/win2002/entries/popper/。 ↩︎
John Baez,“The Crackpot Index”,1998,http://math.ucr.edu/home/baez/crackpot.html。 ↩︎